【NeurIPS】Align before Fuse_Vision and Language Representation Learning with Momentum Distillation

发布日期：2023-05-26 返回

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

分享人：樊锐佳
研究方向：多模态情感识别
论文题目：Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
论文作者：Junnan Li, Ramprasaath Selvaraju, Akhilesh Gotmare, Shafiq Joty, Caiming Xiong, Steven Chu Hong Hoi
作者单位：Salesforce人工智能研究院
论文摘要：大规模视觉和语言表示学习在各种视觉语言任务上呈现出喜人的改进。大多数现有方法采用基于Transformer的多模态编码器来联合建模视觉标记（基于区域的图像特征）和单词标记。由于视觉标记和单词标记未对齐，因此多模态编码器学习图像文本交互具有挑战性。本文介绍了一种对比损失，通过跨模态注意力在融合之前对齐图像和文本表示（ALBEF），从而实现更基础的视觉和语言表示学习。与大多数现有方法不同，本文的方法不需要边界框注释，也不需要高分辨率图像。为了改进对噪声网络数据的学习，本文提出了动量蒸馏，这是一种从动量模型产生的伪目标中学习的自训练方法。本文从互信息最大化的角度对ALBEF进行了理论分析，表明不同的训练任务可以解释为生成图像-文本对视图的不同方式。ALBEF在多个下游视觉语言任务上取得了最优性能。在图像文本检索方面，ALBEF的性能优于在大数量级数据集上预训练的方法。在VQA和NLVR2上，ALBEF与最先进的技术相比提高了2.37%和3.84%，同时拥有更快的推理速度。代码和模型可在https://github.com/salesforce/ALBEF获取。
原文链接：

点击此处